专业 激情 持久 卓越
好文推荐
当前位置: 首页 > 开放资源 > 好文推荐

【arXiv】P-STMO-Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose Estimation

发布日期:2022-05-29     返回

P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose Estimation

分享人:李文豪
研究方向:3D人体姿态估计
论文题目:MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video
论文作者:Wenkang Shan, Zhenhua Liu, Xinfeng Zhang, Shanshe Wang, Siwei Ma, and Wen Gao
作者单位:北京大学、中国科学院大学
论文摘要:本文介绍了一种用于2D到3D人体姿态估计任务的新型预训练空间时间多对一(P-STMO)模型。为了降低捕获空间和时间信息的难度,我们将这项任务分解为两个阶段:预训练(第一阶段)和微调(第二阶段)。在第一阶段,提出了一种自监督的预训练子任务,称为掩码姿态建模。输入序列中的人体关节在空间和时间域中被随机掩码。我们利用一种通用形式的去噪自动编码器来恢复原始2D姿态,并且编码器能够以这种方式捕获空间和时间依赖性。在第二阶段,预训练的编码器权重被加载到STMO模型并进行微调。编码器后伴随着一个多对一的帧聚合器来预测当前帧中的3D姿态。特别是,在STMO中使用MLP块作为空间特征提取器,比其他方法产生了更好的性能。此外,还提出了一种时间下采样策略来减少数据冗余。在两个基准上进行的大量实验表明,我们的方法以更少的参数和更少的计算量优于最先进的方法。
原文链接

点击此处